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Die f olgenden Angaben sind den vom Anmelder eingereichten Unterlagen entnommen 

Prufungsantrag gem. § 44 PatG ist gestellt 

@ Einheit zur Verarbeitung von numerischen und logischen Operationen, zum Einsatz in Prozessoren (CPU's), 
Mehrrechnersystemen, Datenfluf^prozessoren (DFP's), digitalen Signal Prozessoren (DSP's) oder dergleichen 

@ In Verbindung mit einer konfigurierbaren und zur Lauf- 
zeit umkonfigurierbaren Einheit zur Verarbeitung von nu- 
merischen und logischen Operationen (PAE), zum Einsatz 
in Prozessoren (CPUs), Mehrrechnersystemen, Daten- 
fiuf^prozessoren (DFPs), Digitalen Signal Prozessoren 
(DSPs), systolischen Prozessoren und programmierbaren 
Logikbausteinen (FPGAa), gesteuert von einer Ladelogik 
(PLU), wird folgende Konfiguration vorgeschlagen: 
Es ist eine programmierbare Recheneinlieit (EALU) zur 
Durchfuhrung der mathematischen und logischen Grund- 
funktionen vorgesehen, deren Funktion und Vernetzung 
in Registern programmiert wird und in denen eine Viel- 
zahl von Daten, ohne Umprogrammierung der PAE, verar- 
beitet werden kann. 
■ Zur Steuerung der Recheneinheit (EALU) ist eine Zu- 
' standsmaschine (SIVI-UNIT) vorgeselien; ferner sind fur 
jeden Operanden (0-REG) und das Ergebnis (R-REG) Re- 
gister vorgesehen, die teilweise als Schieberegister aus- 
gefuhrt werden konnen. Die Riickkopplung der Daten des 
Ergebnis registers erfolgt uber einen Multiplexer 
{R20-MUX) auf einen Eingang der EALU. Eine Buseinheit 
(BM-UNIT) ermoglicht den Abgriff der Daten von einem 
Bussystem bzw. das Einspeisen des Ergebnisses auf ein 
Bussystem, wobei die Buseinheit Daten an mehrere Emp- 
fanger versenden kann und die Synchronisierung auch 
mehrerer Empfanger automatisch erfolgt. 
Der Buszugriff von der Datenverarbeitung in der EALU ist 
uber die Register entkoppelt, wobei jede PAE als unab- 
hangige Einheit betrachtet werden kann, so daB die ... 
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Beschreibung 
1. Hintergrund der Erfindung 

5 1 . 1 Stand der Technik 

In der Offenlegungsschrift DE 44 16 881 Al ist ein Verfahren zur Verarbeitung von Daten beschrieben. Dabei werden 
in ihrer Funkdon und Vemetzung weitgehend frei konfigurierbare, homogen angeordnete Zellen verwendet. 

Unabhangig von der erwahnten Offenlegungsschrift werden zunehmend FPGA-Bausteine (frei programmierbare Lo- 
10 gikbausteine) verwendet, um Rechenwerke und Datenverarbdtungseinrichtungen aus einer X^elzahl einzelner Logikzel- 
len aufzubauen. 

Ein weiteres bekanntes Verfahren ist der Aufbau von Datenverarbeitungseinrichtungen aus festen, programmgesteu- 
erten Rechenwerken mit weitgehend fester Vemetzung, sogenannten systolischen Prozessoren. 

15 1.2Probleme 

1.2.1 Bausteine nachDE44 16 881 Al 

Bausteine nach dem in DE44 16 881 A 1 beschriebenen Verfahren (im folgenden VPUs genannt) sind aufgrund der 
20 hohen Zahl kleiner Logikzellen sehr aufwendig zu konfigurieren. Zur Steuerung einer Logikzelle sind mehrere Steuer- 
Bit in einem statischen Speicher (SRAM) anzugeben. Fur jede Logikzelle existiert eine SRAM-Adresse. Die Zahl der zu 
konfigurierenden SRAM-Zellen ist sehr hoch, was zu einem erheblichen Platzbedarf und Zeitaufwand fur die Konfigu- 
ration und Umkonfiguration eines solchen Bausteines flihrt. Der hohe Platzbedarf ist besonders unangenehm, da die >fer- 
arbeitungsleistung einer VPU mit steigender Zahl der Zellen zunimmt. Jedoch ist die verwendbare Flache eines Baustei- 
25 nes durch die Chipfertigungstechnologien begrenzt. Der Preis eines Chips steigt etwa quadratisch zur Chipflache. Auf- 
grund der mehrfach abgebildeten Next-Neighbour Vemetzungsstruktur ist ein Broadcast, also das Senden von Daten an 
mehrere Empfanger gleichzeitig, unmoglich. SoUten VPUs im Betrieb umkonfiguriert werden, ist es zwingend erforder- 
lich kurze Umkonfigurationszeiten zu erreichen. Dagegen steht jedoch die groBe Anzahl an Konfigurationsdaten die be- 
notigl werden, um den Chip umzukonfigurieren. Es existiert keine Moglichkeit Zellen von der \fersorgungsspannung zu 
30 trennen oder langsamer zu takten, um die Verlustleistung zu minimieren. 

1.2.2 FPGAs 

Fiir den beschriebenen Einsatzbereich interessante FPGAs bestehen zumeist aus Multiplexer oder Look-Up-Table 
35 (LUT) Strukturen. Zur Implementierung werden SRAM-Zellen eingesetzt Aufgrund der \lelzahl an kleinen SRAM- 
Zellen sind sie sehr aufwendig zu konfigurieren. Es sind groBe Datenmengen erforderlich, die einen entsprechend groBen 
Zeitaufwand zum Konfigurieren und Umkonfigurieren erfordem. SRAM-Zellen benotigen sehr viel Platz. Jedoch ist die 
verwendbare FlSche eines Bausteines durch die Chipfertigungstechnologien begrenzt. Der Preis steigt auch hier etwa- 
quadratisch zur Chipflache. SRAM basierende Technologie ist durch die Zugriffszeit auf den SRAM langsamer als direkt 
40 integrierte Logik. Obwohl viele FPGAs auf Busstrukturen aufbauen, sind keinerlei Broadcast-Moglichkeiten zum 
schnelien und effektiven Senden von Daten an mehrere Empfanger gleichzeitig gegeben. Solien FPGAs im Betrieb um- 
konfiguriert werden, ist es zwingend erforderlich kurze Konfigurationszeiten zu erreichen. Dagegen steht jedoch die 
groBe Anzahl an Konfigurationsdaten die benotigt werden. FPGAs bieten keinerlei Unterstiitzung fiir eine sinnvoUe Um- 
konfigurierung im Betrieb. Der Programmierer hat dafiir zu sorgen, da6 der Vorgang ordentlich ohne storende Einfliisse 
45 auf Daten und umgebende Logik ablauft. Eine intelligente Logik zum Minimieren der Verlustleistung ist nicht vorhan- 
den. Es bestehen keine spezieilen Funktionseinheiten, die eine Riickmeldung der intemen Betriebszustande an die das 
FPGA steuemde Logik ermoglichen. 

1.2.3 Systolische Prozessoren 

50 

Bei systolischen Prozessoren entfallt die Umkonfigurierung komplett, jedoch sind diese Prozessoren unflexibel, da sie 
einen starren intemen Aufbau besitzen. Befehle werden in jedem Zyklus neu dekodiert. We bereits in der beiden vorhe- 
rigen Abschnitten beschrieben fehlen Funktionen, die ein Broadcasting oder die effiziente Minimierung der Verlustlei- 
stung beinhalten. 

55 

1.3 Verfoesseruag durch die Erfindung, Aufgabe 

Die Erfindung umfaBt ein kaskadierbares Rechenwerk, das flexibel in seiner Funktion und Vemetzung konfigurierbar 
ist. Es benotigt wahrend der Ausfuhrung des Algorithmus keine Befehlsdekodierung. Es ist im Betrieb umkonfigurierbar; 

60 ohne EinfluB auf die umgebenden Rechenwerke, Verarbeitungsmodule und Datenstrome zu haben. Die Menge der Kon- 
figurationsdaten ist sehr klein, was sich gunstig auf Platzbedarf und Konfigurationsgeschwindigkeit auswirkt. Um groBe 
Datenmengen schnell und effizient zu verteilen wird Broadcasting liber die internen Bussysteiiie unterstiitzt. Das Re- 
chenwerk ist mit einer Stromsparfunktion ausgestattet, wodurch die Stromaufnahme komplett ausgeschaltet wird, ebenso 
existiert ein Taktteiler, der es ermoglicht das Rechenwerk mit einem geringeren Takt zu betrieben. Fiir Ruckmeldungen 

65 der intemen ZustSnde an die extemen Steuerungen stehen besondere Mechanismen zur VerfUgung. 
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2. Beschreibung der Erfindung 

2.1 Obersicht iiber die Erfindung, Abstrakt 

Die Erfindung beschreibt den Aufbau einer Zelle im Sinne von DE44 16 881 Al oder bekannter FPGA Zellen. In 5 
diese Zelle integriert ist eine um Sonderfunktionen erweiterte Arithmetisch-Logische-Einheit (EALU), die die Datenver- 
arbeitung durchfuhrt. Die EALU wird uber ein Funktionsregisterregister konfiguriert, dadurch sinkt die fur die Konfigu- 
ration erforderliche Datenmenge erheblich. Die Zelle ist uber ein Bussystera frei kaskadierbar, dabei ist die EALU vom 
Bussystem iiber Ein- und Ausgaberegister entkoppelt. Die Ausgaberegister sind auf einen Eingang der EALU zuriickge- 
fiihrt um serieUe Operationen zu emioglichen. Die Aufschaltung auf den Bus ubemimnit eine Bussteuereinheit, die den 10 
Bus entsprechend dem Busregister vemetzt. Dabei ist die Einheit so konzipiert, da6 das Verteilen von Daten an mehrere 
Empfanger (Broadcasting) moglich ist. Eine Synchronisationsschaltung steuert den Datenaustausch zwischen mehreren 
Zellen Uber das Bussystem. Die EALU, die Synchronisationsschaltung, die Bussteuereinheit und die Register sind so ge- 
staltet, daB eine Zelle unabhangig von ihren Umgebungszellen im Betrieb umkonfiguriert werden kann. ttber das Funk- 
tionsregister kann ein Su-omspannodus konfiguriert werden, der die Zelle abschaltet, ebenfalls konnen Ikktteiler einge- 15 
stellt werden, die die Arbeitsfrequenz verringem. 

2.2 Detailbeschreibung der Erfindung 

Die Erfindung beschreibt den Aufbau einer Zelle (PAE=Processing Array Element) im Sinne von DE 44 16 881 Al 20 
Oder bekannter FPGA Zellen, dabei sind die PAEs zu einem Array (Processing Array = PA) kaskadierbar. Eine PAE ist 
aus einer Vielzahl von Funktionseinheiten aufgebaut: 

2.2.1 EALU 

25 

Das Rechenwerk besteht aus einer fest in Logik implementierten erweiterten Arithmetisch-Logischen-Einheit EALU. 
Eine EALU ist eine gewohnliche Arithmetisch-Logische-Einheit nach dem Stand der Tfechnik (ALU), die durch spezielle 
Funktionen, wie Zahler erweitert ist. Diese EALU ist in der Lage eine Vielzahl von arithmetischen und logischen Ope- 
rationen durchzufuhren, ohne hier genau spezifiziert werden zu miissen, da auf ALUs die dem Stand der Tbchnik entspre- 
chen zuriickgegriffen werden kann. Die EALU hat direkten ZugrifF auf ihre eigenen Ergebnisse, diese werden wir nach- 30 
folgend beschrieben als Operand zuruckgefiihrt. Dadurch sind Zahler oder serielle Operationen, wie die serielie Muld- 
plikation. Division oder Reihenentwicklungen, moglich. Die EALU liefert neben ihrem Ergebnis die Signale CarryOut- 
AlessB und AequalB-Odetect. CarryOut-AlessB gibt entweder bei arithmetischen Operationen das Carry an, oder bei 
Veigleichen mittels einer SubU-aktion zweier Werte gibt der UberU^g, also CarryOut-AlessB, daB A < B, bzw. B < A, ab- 
h^gig vom negierten Operanden an. Das Signal ist das ubliche Carry generiert durch einen \blladdierer. AequalB-Ode- 35 
tect gibt an, daB das Ergebnis im Ergebnisregister R-REGsft gleich 0 ist. Das Signal wird iiber ein NOR aus dem Ergeb- 
nis generiert. Die Signale werden zur einfachen Auswertung von Zustanden verwendet und konnen an die PLU zuriick- 
geliefert werden. Weitere Statussignale sind je nach Anwendung implementierbar. 

Die Funktion der EALU wird in einem Funktionsregister (F-PLUREG) konfiguriert. 

40 

2.2.2 O-REG 

Die Eingangsoperanden der EALU werden in zwei unabhangige Operandenregister (OREG) gespeichert. Dadurch 
stehen sie unabhangig des Zustandes der Einheit, die die Daten liefert (Datensender) zur Verfiigung. Dies ist notwendig 
um eine Entkopplung vom Bus und eine freie Umkonfigurierbarkeit des PAs zu ermoglichen. Eines oder beide 0-REG 45 
besitzen eine Schiebefunktion, die von der EALU fiir ggf. jedes O-REG einzeln angesteuert wird. Die Schiebeflinktion 
ermoglicht das Durchfuhren von seriellen Operationen wie serielles Multiplizieren oder Dividieren im EALU. O-REG 
mit Scheibefunktion werden als 0-REGsft bezeichnct. 

2.2.3 R-REGsft so 

Das Ergebnis der EALU wird in einem Ergebnisregister gespeichert (R-REGsft). Dadurch wird die zeidiche Unabhan- 
gigkeit von der oder den das Ergebnis empfangenden Einheiten (Datenempfanger) erreicht. Das R-REGsft besitzt eine 
Scheibefunktion, die von der EALU angesteuert wird, wodurch serielle Operationen ermoglicht werden. 

55 

2.2.4 R20-MUX 

Die Ergebnisdaten, die in R-REGsft stehen, werden iiber einen Multiplexer CR2C)-MUX) zwischen einem der O-REG 
und der EALU als Operand eingescbleift, um eine Ruckkopplung des Ergebnisses fiir serielle Operationen, Zahler und 
ahnliche Funktionen zu gew^hrleisten. Der Multiplexer wird durch das F-PLUREG eingestellt 60 

2.2.5 Taktzyklen 

Es ist sinnvoll, jedoch nicht zwingend erforderlich, die OREG(sft) bei einer Tkktflanke anzusteuem und die R-REGsft 
bei der darauffolgend negierten Taktflanke. Dadurch hat die EALU einen Halbtakt zur Ausflihrung ihrer Funktion zur 65 
Verfiigung, der zweite Halbtakt steht fiir Signallaufzeiten und Multiplexer zur Verfiigung. Dadurch wird es moglich in je- 
dem Takt eine komplette Operation auszufiihren. 
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2.2.6 StateMachine, SM-Unit 

Zur Ablaufsteuerung in der EALU existiert eine SM-UNIT. Diese steuert die OREG und R-REGsft und deren Schie- 
befunktion, sowie R20-MUX. Dadurch wird erreicht, daB serielle Operationen, Schiebe- und Zahlfunktionen einfach 
5 von der EALU durchgefuhrt werden konnen. Die StateMachine ist dabei nach dem Stand der Tfechnik einfach zu imple- 
mentieren. 

2.2.7 Sync-UNTT 

10 Zur Synchronisadon einer PAE innerhalb eines Arrays (PA) aus PAEs ist eine Synchronisationseinheit (Sync-UNTT) 
vorhanden. Diese wertet eine Reihe von Eingangssignalen, die ein HandshakeProtokoU ausfiihren, aus. 

rACK(h/I): Der Datenempfanger quittiert die empfangenen Daten. Dabei ist rACKh die Quittierung des hohen Eigebnis- 
bytes (Bit 8 bis 15) und rACKl die des niederen Ergebnisbytes (Bit 0 bis 7). Beide werden verUNDet (rACKh UND 
15 rACKl) und ergeben das Signal rACK. rACK isl nicht wahr, wahrend einer oder beide Datenempfanger mit der Verar- 
beitung ihrer Daten beschaf tigt sind und wird wahr wenn die Verarbeitung der Daten beider Datenempfanger abgeschlos- 
sen ist und das Ergebnis im R-REGsft des jeweiligen Datenempfangers gespeichert ist. Die Signale rACK(h/l) werden im 
weiteren oftmals in ihrer verUNDeten Form als rACK (= rACKh & rACKl) betrachtet. 

oRDY(l/2): Der Datensender signalisiert seine Bereitschaft neue Daten zu senden. oRDY ist nicht wahr, wahrend der 
20 Datensender mit der Verarbeitung seiner Daten beschafdgt ist und wird wahr, wenn das Ergebnis des Datensenders, das 
der Operand der PAE ist, zur Verfugung steht. Dabei isl oRDYl das Freigabesignal des Datensenders des ersten Operan- 
den und oRDY2 das des Zweiten. Beide werden verUNDet (oRDYl UND oRDY2) und eigeben das Signal oRDY. 
oRDY ist nur wahr, wenn beide Datensender bereit sind Datra zu versenden. Die Signale oRDY(l/2) werden im weite- 
ren oftmals in ihrer verUNDeten Form als oRDY (=oRDYl & oRDY2) betrachtet. 

25 

Aus den Eingangssignalen und dem Zustand der Sync-UNIT, der zusammen mit der Ablaufsteuerung der EALU den Ge- 
samtzustand der PAE darstellt, werden Ausgangssignale generiert, die von den Sync-UNTR der Datensender und -emp- 
fanger ihrerseits als Eingangssignale betrachtet werden. Zur Ablaufsteuerung der EALU werden deren Statusinformatio- 
nen und das Register F-PLUREG verwendet. 

30 

rRDY: Zeigt an, daB die PAE ihre Datenverarbeitung beendet hat und ein Ergebnis im R-REGsft zur Verfugung steht. 
rRDY wird als rRDYh und rRDYl an beide Datenempfanger ubertragen. Dabei handelt es sich jedoch urn dasselbe Si- 
gnal! 

oACK: Zeigt an, daB die PAE ihre Operanden verarbeitet hat und neue Daten in den OREG(sft) aufnehmen kann. oACK 
35 wird als oACKl und oACK2 an beide Datensender ubertragen. Dabei handelt es sich jedoch um dasselbe Signal! 

Die RDY-Signale behalten ihren Pegei bis zum Eingang der Quittierung durch ACK bei. Dies ist erforderlich wenn der 
Datenempfanger wahrend der Bereitstellung der Daten umkonfiguriert wird. Steht RDY bis zur Quittierung durch ACK 
an, so erkennt der Datenempfanger nach der Umkonfigurierung, daB Daten bereitstehen und nimmt sie an. 

Die Verkniipfting der Signale Qber mehrere PAEs stellt sich wie folgt dar: 

40 

Datensender PAE Datenempfanger 

rRDY — ^ oRDYrRDY — ► oRDY 
rACK 4— oACKrACK <— oACK 

45 Das bedeutet z. B. das Ausgangssignal rRDY des Datensenders stellt das Eingangssignal oRDYl oder oRDY2 der 
PAE dar. Das Ausgangssignal rRDY der PAE stellt das Eingangssignal oRD Y des Datenempfangers dar. 
Die Sync UNTT besitzt folgende Ablaufarten: 





Modus 


Beschreibung 


Bemerkung 


SO 


Warten OP 


Die PAE wartet auf Operanden 


Nur wenn keine mehrzykli- 
sche Operation ablauft 




Zyklus 1 


Eine einzyklische Operation 


Operanden werden quittiert 




wird durchgefuhrt 
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Zyklus n 


Ein Zyklus einer mehrzyklischen 






Operation wird durchgefUhrt 






Zyklus Z 


Der letzte Zyklus einer 


Operanden werden quittiert 




mehrzyklischen Operation - 
wird durchgefiihrt 




60 


Warten ERG 


Die PAE wartet auf die 
Quittierung des Ergebnisses 


Nur wenn vorhergehendes 
Ergebnis exisistiert 




Stop 


Ausfuhrung nach Beendigung des 






laufenden Zyklusses anhalten, 
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.dann ReConfig quittieren, wenn 
auch Ergebnis quittert wurde 





Die Sync-UNIT stellt einen besonderen Modus zur Verfugung, der das Taktsignal nur freigibt, wenn Operanden zur 



4 



DE 196 51 075 Al 



Verfugung stehen. Dieser Modus ist vor allem dann sinnvoll, wenn die Datensender die Daten nicht in jedem Prozessor- 
takt liefem, sondern nur jeden n, Takt. Dabei entspricht der Takt einer Periode des Normaltaktes und wird iiber rACK 
Oder oRDY( 1/2) freigegeben. Die Freigabe wird als OneShot bezeichnet. Der Modus wird als OneShot-MODE bezeich- 
net. Dabei wird der Takt uber ein UND-Gatter mit einem der Freigabesignale verUNDet. Der Modus und die Signaiaus- 
wahl findet uber das F-PLUREG statt. Das Freigabesignal, generiert iiber rACK oder oRDY(l/2), kann von der SM- 5 
UNIT verlangert werden. Dies ist erforderlich, damit Operationen, die mehr als einen Takt benotigen im OneShot- 
MODE durchgefuhrt werden konnen. Um dies zu ermoglichen, wird eine entsprechende Signalleitung der SM-UNTT mit 
dem Freigabesignal verODERt, 

\\^ird der Registereintrag STOP im F-PLUREG gesetzt, so fuhrt die Sync-UNIT die laufende Funktion zu Ende. Da- 
nach werden keine weiteren Operanden inehr angenommen und quittiert. Sobald rACK anzeigt, daB das Ergebnis vom 10 
Datenempfanger angenommen wurde, wird die Umkonfigurierungsbereitschaft der PLU durch das Signal ReConfig an- 
gezeigt. Das Signal wird generiert, indem rACK das Stop des F-PLUREG in ein D-RipFlop speichert. ReConfig kann 
durch einen lesenden Zugriff der PLU auf F-PLUREG an der Bitposition von Stop abgefragt werden. 

Ebenfalls kann die Sync-UNIT dazu verwendet werden FehlerzustSnde oder weitere Statussignale zu generieren und 
auszuwerten. 15 

2.2.8 BM-UNTT 

Zum Aufschalten der Operanden und des Ergebnisses auf die extemen Bussysteme existiert eine Busmultiplexeinheit 
(BM-UNIIO. Diese besteht aus 2 Multiplexern und 2 Tore, wobei die 2 Multiplexer fur die Operanden (0-MUX) und 2 20 
Tore fiir das Ergebnis (R-GATE) existieren, dabei wird jeweils ein Schalter fiir das hoherwertige und niedcrwertige Er- 
gebnis verwendet. Die Multiplexer und Schalter werden uber das Multiplexerregister (M-PLUREG) gesteuert. Die Sync- 
UNIT-Signale werden uber die Schalter auf den Bus gesteuert. Dabei ist die Zusammengehorigkeit der Multiplexer/ 
Schalt^ und Signale wie folgt: 

25 

O-MUXl: oRDYl, oACK 
0-MUX2: oRDY2, oACK 
RH-GATE: rRDY, rACKh 
RL-GATE: rRDY, rACKl. 

30 

Das R-GATE kann uber das M-PLUREG in einen Zustand gebracht werden, in dem es kein Bussystem treibt 
Die Tabelle gibt eine Beschreibung der Signale, sowie deren jeweiliger Interface-Struktur: 



Signal 


oRDY 


oACK 


rRDY 


rACK 


D7..0 


zeigt an 


Operanden 
bereit 


Operanden 
quittiert 


Ergebnis 
bereit 


Ergebnis 
quittiert 


Daten 


Typ 


Eingang 


Open-Kollektor 


Tteiber 


Eingang 


Bidirektional 



Es ist moglich mehrere Datenempfanger von einem Datensender aus anzusprechen (Broadcasting). Hierzu schalten 40 
sich mehrere Datenempfanger auf denselben Bus. Um eine Quittierung der Daten zu gewahrleisten ist die Treiberstufe 
der Quittierungsleitung oACK als Offener-Kollektor-Treiber gestaltet. Dabei arbeitet der Bus als wired-AND, d. h. erst 
wenn alle Datenempfanger quittieren entsteht der fur die Quittierung erforderliche H-Pegel. Dies wird dadurch erreicht, 
daB jeder Datenempfanger, der NICHT quittiert den Bus uber einen Open-KoUektor-Transistor auf einen L-Pegel zieht. 
Datenempfanger die quittieren, steuem den Open-Kollektor-Transistor nicht an und belasten somit den Bus nicht. Wenn 45 
alle Datenempfanger quittieren wird der Bus nicht mehr belastet und nimmt iiber einen Pull-Up- Wderstand H-Pegel an. 

2.2.9 StateBack-mSQT 

Die PAE ist in der Lage Riickmeldungen Uber ihren Betriebszustand an ihre Ladelogik, im folgenden PLU genannt, zu 50 
liefem (vgl DE 44 16 881 Al). Die Ladelogik konfiguriert das PA und benotigt, um sinnvolle Umkonfigurationen vor- 
nehmen zu konnen, Informationen iiber den Status der einzelnen PABs. Dies geschieht iiber die StateBack-UNIT Diese 
iibertragt je nach Eintrag im F-PLUREG entweder die unteren 3-Bit des Ergebnisses aus dem R-REGsft - um berechnete 
Werte an die PLU zu liefern - oder die Signale CarryOut-AlessB und AequalB-Odetect auf einen 3-Bit Statusbus. Um das 
Aufschalten der Signale von mehreren PAEs aus zu ermoglichen wird ein einfaches wired-OR Verfahren uber Opeh-Kol- 55 
lektor-Treibern verwendet. Damit die Umkonfigurierung der PAE erst beginnt, wenn der Empfanger die Daten quittiert 
hat, kann zwischen den Signalen und den Open-KoUektor-Treibem eine Latch-Stufe eingeschleift werden, die die Si- 
gnale erst nach Eingang des rACK freigibt. Der Statusbus wird von der PLU iiberwacht. Diese reagiert in ihrem Pro- 
graminflufi und ihrer Umkonfiguration auf den vom Bus gelieferten Status. 

60 

2.2.10 Power-UNTT 

Die PAE besitzt einen SUromsparmodus (Sleep-MODE), der ebenso wie die Funktion der EALU im F-PLUREG ein- 
gestellt wird. Hierfur existiert ein Bit, das, wenn es gesetzt ist, den Sleep-MODE einschaltet, Hierzu kann entweder die 
Taktleitung der PAE auf konstant logisch 0 oder 1 gesetzt werden, oder uber einen TVansistor die Spannung der PAE ab- 65 
geschaltet werden. Das F-PLUREG steht innerhalb der PAE immer unter Spannung und ist nicht abschaltbar. Fiir die je- 
weils ausgefiihrte Funktion unbenutzte Bereiche (Gatter) der PAE werden durch Auswertung des F-PLUREG abgeschal- 
tet. Dies geschieht iiber einen Transistor, der die Bereiche von der Spannungsversorgung trennt. Um unerwiinschte Stor- 
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einfliisse zu verhindem sind die Ausgange der Bereiche iiber Pull-Up/Pull-Down-\^derstande definiert, 

Zusatzlich kann innerhalb des OneShot-MODE, der von der Sync-UNTT gesteuert wild, der PowerSave-MODE ver- 
wendet werden. Dabei werden samtliche Tbile der PAE, init Ausnahme von F-, M-PLUREG und Sync-UNTT von der 
Versorgungsspannung getrennt. Erst wenn die Sync-UNTT einen OneShot feststelit, werden alle benotigten PAE-Teile 
5 iiber die Power-UNTT zugeschaltet. Die Sync-UNTT verzogert das Taktsignal so lange, bis alle neu zugeschalteten Teile 
arbeitsfahig sind. 

2.2.11 Register 

10 Die Register F-PLUREG und M-PLUREG sind mit dem PLU-Bus verbunden. Die Adresse der von der PLU gesende- 
ten Datenpakete werden in einem Vergleicher dekodiert. 1st die Adresse der PAE erkannt, so werden die Daten in die Re- 
gister gespeichert. Der PLU-Bus ist wie folgt gestaltet: ^ 

AX7 ... 0: X- Adresse der XA^-Matrix 

15 AY7 ... 0: Y- Adresse der XA"-Matrix 

RS: Register Select, logisch 0 wahlt F-PLUREG, logisch 1 wahlt M-PLUREG aus. 

AEN: Adress Enable, der Bus enthalt eine giiltige Adresse. Die Adressen nriiissen dekodiert werden, solange AEN lo- 
gisch 0 ist. AEN ist wahrend des gesaraten Buszugriffes, also auch wahrend der Datenubertragung logisch 0. 
D23 . . . 00: Daten 

20 DEN: Data Enable, der Bus enthalt gultige Daten. Die Daten miissen bei steigender Hanke des Signals DEN in das Re- 
gister ubertragen werden 

OEN: Output Enable, die PLU liest giiltige Daten aus den PLUREGs. 

Der Aufbau des F-PLUREG 

25 

1. Der Registeraufbau beim Schreibzugriff 



1 Fll 


F10..9 


F8 


F7..6 


F5 


F4..0 


Stop 


StateBack 


Sleep 


OneShot 


PowerSave 


EALU function | 



Die Funktionen der einzelnen Bit 

35 



1 F\inktion 


Zustand 


Wirkung 


Stop 


0 


Normale Flinktion 


1 


Funktionen nacb laufendem Zyklus anbalten, 






keine Quittiertmg der Operanden 


StateBack 


00 


keine Riickmeldung, Bus offen 




01 


D2..0 auf Bus 




10 


CarryOut-AlessB, AequalB-Odetect auf Bus 




11 


illegal 


Sleep 


0 


keine Funktion, spannungslos 




1 . 


normale Rinktion, Spannung 


OneShot 


00 


normale Funktion 




01 


OneShot auf oRDYl 




10 


OneShot auf oRDY2 




11 


OneShot auf (rACKh & rACKl) 


'PowerSave 


0 


kein PowerSave 




1 


Stromspannodus in Verbindung mit OneShot 


EALU function 


00000 


keine Operation (NOP) 




00001 








Funktion gem&8 AusfQhrung der EALU 




11111 





60 

Der Reset-Zustand ist 0 in alien Bits. 



65 
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2. DerRegisteraufbau beim Lesezugriff 



I ReConfig 



Die Funktionen der einzelnen Bits 



10 



Punktion 


Zustand 


Wirkung 


ReConfig 


0 
1 


Keine Umkonfigurienmg moglich 
Umkonfiguriening moglich 



15 



Der Reset-2^stand ist 0 in alien Bits. 



Der Aufbau des M-PLUREG 



20 



M23..18 



M17..12 



I M11..Q6 I MQ5..00 



Ergebnis hdfaerwertig Ergebnis niederwertig | Qperaad 1 | Operand 0 



Die Werte M(n+5) . . . n = 000000, n e {0, 6, 12, 18} bedeuten, daB die Multiplexer/Schalter offen sind und keinen 
Buskontakt besitzen. Es kann sinnvoll sein, das M-PLUREG iiber das Signal ReConfig zu sperren, d. h. sobald ReConfig 
aktiviert wird, schaltet sich die PA£ von alien Bussystemen ab. Der Reset-Zustand ist 0 in alien Bits. 

2.3 Zusanunenfassung 

Dutch die Reduzierung der Konfigurationsdaten auf das Register F-PLUREG kann die Funktion des PAE einfacher 
und schneller konfiguriert und umkonfiguriert werden, als in bekannten Technologien, ins besondere der FPGA-Techno- 
logie. Die Vemetzung des Rechenwerkes wird im M-PLUREG angegeben, wahrend in den herkommlichen Tfechnolo- 
gien eine Vielzahl einzelner, nicht zusammenhangender Konfigurationsbits besetzt werden mUssen. Durch die klaie 
Struktur der Register wird eine (Um)Konfiguration vereinfacht 

Der Platzbedarf des PAE ist durch die direkle Ausgestaltung als Rechenwerk kleiner als in herkommlichen 1bchnolo> 
gien, in denen Rechenwerke durch eine Vielzahl von Logikzellen implementiert wurden. Gleichzeitig sind die Durch- 
laufverzogerungen geringen und die erzielbaren T^ktfrequenzen entsprechend hoher. 

Eine Broadcasting-Funktion ist durch die Ausgestaltung der BM-UNTT gewahrleistet, die Quittierung erfolgt automa- 
tisch. Durch die ein- und ausgangsseitigen Register (OREG, R-REG) ist ein zeitlich weitgehend unabh^giger Daten- 
transfer gewahrleistet. 

Die Konfiguration und Umkonfiguradon wird durch die Entkopplung jeder PAE vom Gesamtsystem iiber die Register 
0-REG und R-REG erheblich vereinfacht, da die einzelnen PAEs weitgehend voneinander unabhangig sind. Die Riick- 
meldungen an die PLU, sowie das Zusammenspiel von STOP und ReConfig ermoglichen die efliziente Steuerung der 
(Um)Konfigurationen. 

Es sind Stromsparfunktionen implementiert, die - teilwdse automadsch (OneShot-MODE) - zu einer Reduzierung 
des Leistungsverbrauches fuhren. 

Die PAE-Struktur kann zur Erhdhung der Effizienz von FPGAs in deren Architektur implementiert werden. Dadurch 
sind arithmetische Operadonen erheblich leistungsMiiger realisierbat 



25 



30 



35 



40 



45 



50 



3. Kurzbeschreibung der Diagramme 

Fig, 1 Anordnung mehrerer PAEs zu einem PA mit PLU, Ohne Verbindung zu Ein-/Ausgabesystemen oder Speicher. 
Fig, 2 Aufbau einer PAE. 55 
Fig. 3 Aufbau von F-PLUREG und M-PLUREG. 
Fig. 4 Aufbau eines O-REG. 

Fig. 5 Aufbau eines O-REGsft mit rechtsschiebe-Funktion. 

Fig. 6 Aufbau eines R-REGsft mit rechts/links l-2bit Barrel-Shifter. 

Fig. 7 Aufbau des R20-MUX, sowie Implementierung eines MUX in TVansfer-Gate-Technik. 6o 
Fig. 8 Taktsynchronisation, Verzogerungen und synchron Signale 
Fig, 9 Funktionsweise der Sync-UNTT. Beschreibung. 
Fig. 10 Aufbau der Power-UNTT 
Fig. 11 Aufbau der Sync-UNTT 

Fig. 1 2 Aufbau der BM-UNTT 65 
Fig. 13 Aufbau eines 0-MUX, begrenzt auf 4 Bussysteme 
Fig. 14 Aufbau eines R-GATE, begrenzt auf 4 Bussysteme 
Fig. 15 Aufbau der StateBack-UNTT 
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Fig, 16 Funktionsprinzip des OneShot- und OneShot/PowerSave-MODE. 

4. Detaiibeschreibung der Diagranune 

5 Fig* 1 stellt einen vereinfachten Prozessor gemaB DE 44 16 881 Al dar. Zudem ist die PLU (0101) und deren Bussy- 
stem (0102) angezeigt. Die PAEs (0103) sind als Array eingetragen, das chipinteme Bussystem (0104) ist schematisch 
dargestellt. 

Fig. 2 zeigt den schematisierten Aufbau einer EAE. Das chipinterne Bussystera (0201) wird an die BM-UNTT (0202) 
gefuhrt, welche die durch M-REG (0203) ausgewahlten Busse an das OREGlsft (0204) als Operand 1 und das 0-REG 

10 (0205) als Operand 2 weiterschaltet. In den Datenpfad von Operand 2 wird uber den R20-MUX (0206) das im Ergeb- 
nisregister R-REGsft (0207) stehende Ergebnis wahlweise eingeschleift. Die Daten aus 0-REGsft (0204) und R20- 
MUX (0206) werden im ELAU (0208) verarbeitet Uber die StateBack-UNIT (0209) finden Ruckmeldungen an die PLU 
statt Der PLU-Bus (0210) hat Verbindung zu den Registem F-PLUREG (021 1) und M-PLUREG (0212), sowie der Sta- 
teBack-UNIT (0209). Ober ihn wild die PAE konfiguriert und tiberwacht. Das F-PLUREG enthSlt alle fiinktioneUen 

15 Konfigurationsdaten, das M-PLUREG enthalt die \femetzungsinformadon der PAE. Die Sync-UNTT (0212), steuert das 
Zusammenspiel des Datenaustausches zwischen den Datensendem, den Datenempfangem und der ^ferarbeitungs-PAE. 
Die SM-UNIT (0213) steuert den gesamten internen Ablauf der PAE. Die Power-UNIT (0214) regelt die Stromversor- 
gung und dient der Reduzierung des Strom verbrauches. 

In Fig. 3 wird die Funktionsweise der Register M-PLUREG und F-PLUREG verdeudicht. Die Adressen AX und AY 

20 des PLU-Bus (0308) werden in einem Vergleicher (0301) mit der Adresse der PAE verglichen, sofem AEN (Adress En- 
able) einen gOltigen Bustransfer anzeigt. Dabei besitzt jede PAE eine eindeutige Adresse, die sich aus ihrer Spalte und 
Zeile innerhalb einer PA zusanmiensetzL Zeigt DEN (DataEnable) die Datenubertragung an, so wird uber RS CRegister- 
• Select) entweder M-PLUREG (0302) oder F-PLUREG (0303) ausgewahlt. Bei der steigenden Ranke von DEN werden 
die Daten im benreffenden Register gespeichert. Die Register sind als D-FlipFlop (0304) implementiert. Zur VerdeutU- 

25 chung des Abiaufes dient das Umingdiagramm 0305. Zum lesenden Zugriff auf das F-PLUREG wird lediglich uber das 
Tor (0306) das Signal ReConfig von der Sync-UNTT an den PLU-Bus gegeben. Die Freigabe geschieht iiber das Eigebnis 
des Vergleichers (0301) UND dem Signal OEN. 

Fig. 4a zeigt das Blockdiagramm des OREG. In Fig, 4b ist der Aufbau des OREG aus D-FlipRops ersichtlich. Das 
Timingdiagraimn ist in Fig. 4c dargestellt. Der Takt wird von der SYNC-SM generiert. 

30 Fig. 5a zeigt das Blockdiagranun des O-REGsft. In Fig. 5b ist der Aufbau des O-REGsft aus D-FlipFIops (0501) er- 
sichdich. Die UND-Gatter (0502) und das OR-Gatter (0503) bilden uber den Inverter (0504) einen durch Mode gesteu- 
erten Muldplexer (0506), der entweder die Eingangsdaten auf die D-FlipFlop (0501) schaltet, oder die Ausgangsdaten 
der D-FlipFlop um ein Bit verschoben an deren Eingang leitet. Das UND-Gatter (0505) ist nicht notwendig, da ein Ein- 
gang permanent auf logisch 0 liegt. Es dient nur der Anschaulichkeit. In Fig. 5c ist das Umingdiagramm in AbhSngigkeit 

35 von dem Signal Mode angegeben. Der Tkkt wird von der SYNC-SM generiert. 

Fig. 6a zeigt den Blockaufbau des R-REGsft vor dem Register (0601) liegt ein Multiplexer (0602), der entweder die 
Eingangsdaten auf das Register (0601) schaltet, oder die Ausgangsdaten des Registers (0601) verschoben an dessen Ein- 
gang leitet. Der von der SYNC-SM generierte Ikkt wird um einen Halbtakt verschoben an das Register gefiihrt. Li Fig, 
6b ist das Blockdiagramm auf Gatterebene datgestellL Uber einen Dekoder (0603) schalten ModeO-2 einen aus UND- 

40 Gattem mit nachgeschaltetem ODER-Gatter bestehenden Multiplexer (0606). Dabei sind die gestrichelt eingezeichneten 
Gatter (0605 und weitere) nur der Verdeudichung wegen eingezeichnet. Sie sind funktionslos, da ein Eingang standig auf 
L liegt. Der Muldplexer schaltet im Zustand ModeO-2 = 010 das Eingangssignal auf die Register (0607). In den Zustan- 
den ModeO-2 = 000 bis ModeO-2 = 001 werden die Ausgangswerte der Register (0607) nach links, in den Zustanden 
ModeO-2 = Oil bis ModeO-2 = 100 rechts, um ein bzw. zwei Bit verschoben, an die Eingange der Register gefuhrt. Die 

45 Scheibefunktion wird in Abhangigkeit vom Zustand ModeO-2 im Timingdiagranun Fig. 6c verdeutlicht. 

Fig. 7a zeigt den Aufbau des Multiplexers R2C)-MUX, der in Abhangigkeit von Mode die Operanden oder das Ergeb- 
nis an die EALU weiterleitet. Dabei ist Fig. 7a als herkommlicher Multiplexer aufgebaut, wahrend in Fig. 7b die platz- 
und leistungssparende Variante durch die Verwendung von CMOS TVansfer-Gates (0701) aufgezeigt wird. Alle in dieser 
Schrift beschriebenen beschriebenen Multiplexer konnen mittels TVansfer-Gates aufgebaut werden. 

50 Ein Tor kann Equivalent zum Multiplexer aus TYansfer-Gates aufgebaut werden. Dabei ist jedoch die Richtung des Da- 
tenaustausches genau umgekehrt! 

Fig. 8 zeigt das Verhaltnis des EAE-intemen Taktes CLK zu den stattfindenden Aktivitaten. Bei der steigenden Ranke 
(0801) werden die Operanden in die O-REG gespeichert. WShrend des H-Pegels (0802) verarbeitet die PAE die Daten (A 
PAE = Verarbeitungsphase). Das umfaBt den Datenverkehr zwischen den O-REG und dem R-REG. Bei der fallenden 

55 Flanke (0803) wird das Ergebnis im R-REG gespeichert. Der L-Pegel (0804) wird fur die Verteilung der im Bussystem, 
eingeschlossen der BM-UNTT genutzt (A Network = Busphase). Der zeitliche Ablauf der von der SYNC-SM generierten 
Signale (oRDY und oACK, rRDY und rACK) ist in das Zeitdiagramm eingetragen. 

Das Ablaufdiagramm der Sync-UNTT ist in Fig, 9 dargestellt. Die Zustandsmaschine kennt zwei feste Zustande DA- 
TEN (0901) und ERGEBNIS (0902). DATEN wird auf die steigende Ranke synchronisiert, ERGEBNIS auf die Fal- 

60 lende. Dabei wird jeweils der Zustand der Eingangsparameter ausgewertet und je nach Ergebnis in den Zweig ja 
(0903/0904) Oder nein (0905/0906) gesprungen. Sind in DATEN die Operanden nicht bereit. wird nein angesprungen. In 
den nSchsten Schritten wird keine Operation ausgefUhrt, bis die Maschine nach DATEN zurtickspringt und emeut aus- 
wertet. Stehen nun Operanden, angezeigt durch oRDY, bereit, werden die Operanden im O-REG (0907) gespeichert. Die 
Operanden werden verarbeitet (0908) und gleichzeitig wird ausgewertet (0909), ob es sich bei mehrzyklischen Operatio- 

65 nen (serielle Operationen, die mehr als einen Tbktzyklus benStigen), um den letzte Zyklus handelt, oder ob eine einzy- 
klische Operation ablauft. In diesen Fallen werden die Operanden durch oACK quittiert (0910). Mit der fallenden Ranke 
wird ERGEBNIS synchronisiert. Dabei wird uberpruft ob das Rag "Eigebnis vorhanden" gesetzt ist (091 1). Dieses Rag 
wird immer gesetzt, wenn ein fertiges Ergebnis durch rRDY signalisiert wird (0912). 



8 



DE 196 51075 Al 



In zwei Fallen wird in den JA-Zweig (0904) gesprungen: 

- Es ist kein vorhergehendes Ergebnis vorhanden (Hag "Ergebnis vorhanden" unwahr). 

- Es ist ein vorheigehendes Ergebnis vorhanden (Rag "Ergebnis vorhanden'* wahr) und dieses ist mil rACK quit- 
tiert. In diesem Fall (und nur in diesem Fall(!)) setzt 0902 das Ergebnis zuriick (0913). 5 

Ansonsten wird in den NEIN-Zweig (0906) gesprungen und keine Operation ausgefuhrt, bis die Zustandsmaschine 
nach ERGEBNIS (0902) zuruckkehrt. Im JA-Zweig (0904) wird das Ergebnis in das AusgangsregisterR-REGsft gespei- 
chert (0914). Danach wird ausgewertet ob es sich urn den letzten Zyklus einer mehrzyklischen Operation handelt (0915) 
(vgl. 0909) Oder ob eine einzyklische Operadon ablauft, wenn ja, wird das Vorhandensein des Ergebnisses durch rRDY 10 
signalisiert (0916). Die Zustandsmaschine springt nach DATEN (0901) zuruck. Die Erkennung ob es sich urn den letzten 
Zyklus einer Operation - oder um eine einzyklische Operation - handelt kann iiber das Signal FINISH (0916) von der 
SM-UNTT abge&agt werden. Dieses ist aktiv, wenn der letzte - oder einzige - Zyklus stattfindet. Der SM-UNTT wird der 
Zustand der SYNC-UNIT Uber RUN (0917) signalisiert RUN ist im Falle, daB eine Operation stattfindet aktiv, andem- 
falls inaktiv. Der Mechanismus des STOP-Eintrages im F-PLUREG und des daraus generierten ReConfig ist in Fig. 9 15 
nicht dargestellt, da der Ablauf trivial ist und aus der Beschreibung der SYNC-UNIT hervorgeht. 

Fig. 10 zeigt den prinzipiellen Aufbau der Power-UNTT. Das Signal Sleep wird von F-PLUREG auf einen TVansistor 
Oder eine Transistorstufe (1001) geleitet. Diese steuert die Spannungsversorgung fiir alle abschaltbaren Zellfunktionen. 
Die Sync-UNTT liefert das OneShotPowerSave-Signal (vgl. Fig, 16), uber welches die Spannungsversorgung der restli- 
chen Zellfunktionen durch einen Transistor oder eine Transistorstufe (1002) freigegeben wird. Abhangig von den tat- 20 
sachlich verwendeten Funktionen in der Zelle, schalten die Transitoren oder TVansistorstufen (1003) die nicht benotigten 
Funktionen ab (PowerDown). Verstandlich ist, daB fiir ordentliche Spannungsversorgung und EMV-Verhalten weitere 
entsprechende Vorkehrungen, wie Kondensatoren etc., getroflfen werden miissen. 

Fig. 1 1 zeigt die Implementierung der Maschine aus Fig, 9 in das Konzept. Uber die BM-UNTT (UOl) werden die Si- 
gnale oRDY(l/2) und rACK (vereinfacht dargesteUt: tatsSchUch existiert rACKh und rACKl, rACK = rACKl & rACKh) 25 
zu den CCLK-gesteuerten Latches (1102) geschaltet Dabei sind die Latch so geschaltet, daB sie in der L-Phase (Bus- 
phase) von CCLK transparent sind und in der H-Phase (Verarbeitungsphase) den Zustand halten. Die Ausgange der 
Latch stellen die Signale fiir die Sync-StateMachine (1103) zur VerfOgung. rRDY (vareinfacht dargestellt: tatsachlich 
existiert rRDYh und rRDYl, diese sind voUkommen gleich, werden jedoch an verschiedene Empfanger geleitet) von 

(1103) wird uber Tor auf den Bus geschaltet. Die Signale oACK(l/2) von (1103) werden in der BM-UNTT (1101) negiert 30 
und an die wiederum invertierenden Open-KoUektor-Bustreiber (1104) geliefert. Der Bus wird uber Widerstande (1105) 

auf H gezogen. Die BNI-UNTT ist dabei geschaltet, daB folgende Falle cintreten: 

1. Wird der entsprechende Bus von der BM-UNIT nicht angesteuert, liegt an der Basis der TVansistoren (1104) L 

an. Dadurch belasten sie den Bus nicht. 35 

2. Wird der entsprechende Bus von der BM-UNTT angesteuert, und das Signal nicht quittiert, liegt an der Basis der 
Transistoren (1104) H an. Das bedeutet, daB der Bus auf L gezogen wird. Wird ein Ergebnis per Broadcasting an 
mehreie DatenempfMnger verteilt, so Ziehen alle PAEs, die die Ergebnisdaten noch nicht quittiert haben und Warte- 
Zyklen benotigen den Bus auf L. 

3. Wird der entsprechende Bus von der BM-UNTT angesteuert, und das Signal quittiert, liegt an der Basis der Uran- 40 
sistoren (1104) L an. Das bedeutet, daB der Bus nicht belastet wird. Wird ein B^ebnis per Broadcasting an mehrere 
Datenempfanger verteilt, so belasten alle PAEs, die die Ergebnisdaten quittiert haben und keine Warte-Zyklen be- 
notigen den Bus nicht. 

Da der Bus in seinem Grundzustand den H-Pegel, also die Quitderung einninunt iibersteuert die Nichtquittierung ge- 45 
maB Fall 2 die Quittierung, in dem sie den Bus auf L zieht. Dabei geht der Bus erst dann in den H-Pegel, also in den Quit- 
tierungszustand, wenn alle PAEs quittieren. Es ist somit eine Wired-AND-Schaltung realisiert. Die Sync-StateMachine 
stellt das Signal RUN (1107) der SM-UNTT (1106) zur Verfugung. Diese lauft aufgrund von RUN an. Befindet sich die 
SM-UNIT im letzten - oder einzigen - ZYklus einer Verarbeitung, so signalisiert sie dies uber FINISH (1108) an die 
Sync-StateMachine. FINISH wird in den Auswerteeinheiten zur Erkennung des letzten Zyklus (0907, 09 15) ausgewertet. 50 
Die SM-UNIT Tauft synchron zum PAE-intemen mt CLK. 

Fig, 12 zeigt den Aufbau der BM-UNTT. Abhangig von den Eintragen in das M-PLUREG schalten die Multiplexer 
(1201,1202) die Operanden vom intemen Bus (1203) zu den O-REG. Ebenfails schalten die Tore (1204, 1205) die untere 
und obere Halfte des Ergebnisses auf den Bus. Der Multiplexer 1206 schaltet die oRDY(l/2) gemaB der Stellung von 
1201 und 1202 und rACK gemaB der Stellung von 1204 und 1205 vom Bus in die PAE. Dabei werden die rACK beider 55 
Datenempfanger miteinander verUNDet. Existiert nur ein Datenempfanger, so ist der Multiplexer so geschaltet, daB er 
statt des fehlenden rACK eine logische 1 zuruckgibt. 1207 beinhaltet ein Gate zum Aufschalten der Signale oACK(l/2) 
und rRDY auf den Bus. Dabei werden die Signale oACK(l/2) zunachst invertiert und dann iiber Open-KoUektor-Treiber 

(1104) auf den Bus geschaltet. 

Fig. 13 verdeutiicht den Aufbau eines 0-MUX. Dabei existiert ein 3:5 Dekoder (1301) zum Auswerten der 60 
Mode2. .0 Signale aus dem M-PLUREG. Der Multiplexer ist uber UND-Gatter (1302) mit nachgeschaltetem ODER- 
Gatter (1303) aufgebaut. Das Auswertesignal von Mode2 ... 0 = 000 des Dekoders (1301) ist dabei direkt auf die 
ODER-Gatter geschaltet (1304). Das bewirkt, daB in offenem Zustand, d. h. keine Verbindung zu einem Bussystem, im- 
mer logisch 1 zuriickgeliefert wird. (Vgl. rait Fig, 12 rACK). Zur Vereinfachung ist nur eine reduzierte BusgroBe darge- 
stellt, 65 

In Fig, 14 ist der Aufbau eines R-GATE dargestellt. Dabei existiert ein 3 : 4 Dekoder (1401) zum Auswerten der 
Mode2 ... 0 Signale aus dem M-PLUREG. Das Auswertesignal von Mode2 . . . 0 = 000 des Dekoders wird nicht ver- 
wendet. Dadurch wird keine Busverbindung bei dieser Bit-Kombination hergestellt. Die Gates (1402) sind entweder 
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durch UNIMjatter oder TVansmisson-Gates (vgl. 0701) aufgebaut. Dabei ist cine Verstarkerstufe zum TYeiben der Bus- 
last vor- Oder nachgeschaltet. Zur Vereinfachung ist nur eine reduzierte BusgroBe daigestellt. 

Die StateBack-UNTT ist in Fig. 15 dargestellt. GemaB der Einstellung im M-PLUREG schaltet ein Multiplexer (1501) 
entweder die Signale CarryOut-AlessB, AequalB-Odetect von der EALU oder die Ausgange des R-REG R-REGD2 ... 0 
5 durch. Die Signale gelangen an eine Open-Kollektor-Transistor-Stufe (1502) und werden auf den PLU-Bus geschaltet. 
Dabei benotigt der PLU-Bus exteme, nahe der PLU positionierte PuU-Up-Widerstande (1503). Das Latch 1504 ist optio- 
nal. Wird es in die Ausgangssignale von 1501 eingeschleift, werden diese erst auf den Bus (1503) geschaltet, nachdem 
der Datenempfanger die Daten uber rACK quittiert hat. Dadurch wird bewirkt dafi die Bereitschaft zur Umkonfigurie- 
rung uber die Statussignale erst angezeigt wird, wenn die Daten auch angenonunen wurden. Normalerweise wird dies 
10 durch das Zusammenspiel von STOP und ReConfig in do: Sync-UNIT geregelt; daher ist das Latch optional. Das rACK 
wird dabei als Latch-T^kt verwendet. Dabei ist das Latch bei rACK = 1 transparent und speichert bei rACK = 0. 

Fig. 16 verdeutlicht die Funktionsweise des OneShot-MODE. Ober dnen Multiplexer (1601) schalten die Signale 

- Vcc 

15 - oRDYl 

- ORDY2 

- (oRDYl & rACK) 

abhangig von der Einstellung im F-PLUREG den Zell-Takt frei. Dabei bewirkt die Freischaltung uber Vcc, dafi der Tkkt 
20 immer ISuft (siehe Uming-Diagranun "Normaler Betrieb"). In den 3 iibrigen Modi lauft der Tkkt erst an, wenn die Si- 
gnale, Oder Signalkombinationen den Takt freigeben. Die Freigabe wird durch ein Latch (1602) auf den Takt CCLK syn- 
chronisiert, damit die Phase nicht vorzeitig abbricht, wenn das Freigabesignal zu kurz ist. Dabei ist das Latch in der L- 
Phase von CCLK transparent und halt den Wert m der H-Phase. Das Freigabesignal gelangt auf das UND-Gattei^Paar 
(1603 und 1604), das den Takt freigibt. Ober einen Inverter (1605) wird das invertierte Taktsignal !CLK erzeugt, CLK 
25 lauft urn die Phasengleichheit zu gewahrleisten durch ein Verzogerungsglied (1 606) (siehe Timing-Diagramm "One-Shot 
Betrieb"). Dabei wird CCLK in der Zuleitung zu 1604 uber zwei Verzogerungszeitungen (1610) verzogert um Phasen- 
gleichheit zum an 1603 anliegenden CCLK, das durch den Multiplexer (1608) verzogert wurde, zu gewahrleisten. Wird 
eine PAE in den PowerSave-Mode gebracht, wird die Versorgungsspannung der Zelle weitgehend ausgeschaltet. Dies 
geschieht uber das ODER-Gatter 1611. Ist der PowerSave-MODE eingeschaltet, d. h. PowerSave = 1, fiihrt das negierte 
30 Signal L. Ist zudem der OneShot-MODE eingeschaltet und das Register 1602 auf L, wird uber das OneShotPowerSave- 
Signal der Spannungsversorgungstransistor in der Power-UNTT (vgL Fig. 17) abgeschaltet. Steht das Register 1602 je- 
doch auf logisch 1 (oder PowerSave = 0), wird der Spannungsversoigungstransistor uber 1611 eingeschaltet. Die fol- 
gende Tabelle gibt einen Uberblick iiber die Funktion: 



PowerSave 


Latch (1602) 


Spannimg 


Bemerkung 


L 


X 


an 




H 


L 


aus 


nur wenn OneShot- 
MODE gesetzt! 


H 


H 


an 





Beim Einschalten der Versorgungsspannung entsteht eine zeitlich bestimmte Aufwachzeit, bis die Zelle arbeitsfahig 
ist. Um dennoch ordentlich zu funktionieren, miissen die Signale entsprechend verzogert werden. Hierzu wird CCLK 
iiber eine Verzogerungsleitung (1607) geleitet. Ein Multiplexer (1608) wahlt entsprechend dem Signal PowerSave aus F- 
45 PLUREG aus, ob der normale oder verzogerte Thkt an die ZeUe geleitet wird. Verzogert wird nur der nicht invertierte 
Takt um den Zeitraum APowerOn, der invertierte Takt wird nicht verzogert. Dadurch steht das Ergebnis synchron zu den 
restlichen Bausteinfunktionen zur Verfiigung. Dadurch verringert sich die nutzbare Verarbeitungszeit auf Aprocess. Die 
maximale Taktfirequenz des Bausteines hangt soniit von Z = APowerOn + Aprocess ab (siehe Timing-Diagramm "OneS- 
hot BeUrieb mit PowerSave"). 

SO 

5. BegrifFsdefinition 

AequalB-Odetect: Durch die EALU generiertes Signal, das bei arithmetischen Operationen anzeigt, daB das Ergebnis 
gleich null ist. Bei Vergleichen wird angezeigt, dafi Operand A gleich Operand B ist. 
55 ALU: Arithmetisch logische Einheit. Grundeinheit zum Verarbeiten von Daten. Die Einheit kann arithmetische Ope- 
rationen wie Addition, Subtraktion, unter Umstanden auch Multiplikation, Division, Reihenentwicklungen usw. durch- 
fuhren. Dabei kann die Einheit als ganzzahlige (integer) Einheit oder als FlieBkomma-(floating-point)-Einheit gestaltet 
scin. Ebenfalls kann die Einheit logische Operadonen, wie UND, ODER, sowie Vergleiche durchfuhren. 

BM-UNTT: Einheit zum Aufschalten der Daten auf die Bussysteme auBeriialb der PAE. Das Aufschalten geschieht 
60 iiber Multiplexer fUr die Dateneingangc und Tore fOr die DatenausgSnge. oACK-Leitungen sind als Open-Kollektor- 
Trciber implementiert. Die BM-UNTT wird durch das M-PLUREG gesteuert. 

Broadcast: Senden von Daten einer PAE an mehrere Datenempfanger. 

CarryOut-AlessB: Durch die EALU generiertes Signal, das bei arithmetischen Operationen einen t)bartrag anzeigt. 
Bei Vergleichen wird angezeigt, daB Operand A kleiner als Operand B ist. 
65 Datenempfanger: Die Einheit(en), die Ergebnisse der PAE weiterverarbeitetZ-arbeiten. 

Datensender: Die Einheit(en), die Daten fur die PAE als Operanden zur Verfugung stellt/stellen. 

D-FlipRop: Speicherelement, welches ein Signal bei der steigenden Flanke eines T^tes speichert. 

EALU: Erweiterte arithmetisch logische Einheit. ALU, die um Sonderflinktionen, die zum Betrieb einer Datenverar- 
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bdtungseinrichtung gemaB DE 441 16 881 Al benotigt werden oder sinnvoU sind erweitert wurde. Dies sind ins beson- 
dereZWer. 

FPGA: Prograinmierbarer Logikbaustein. Stand der Ibchnik. 

F-PLUREG: Register in dem die Funktion der PAE gesetzt wird. Ebenfalls wird der OneShot- und Sleep-Mode ge- 
setzt. Das Register wird von der PLU beschrieben. 5 

Gatter: Gruppe von Transistoren, die eine logische Grundfunktion durchfUhren. Gnindfunktionen sind z. B. NAND, 
NOR, Transmission-Gates. 

H-Pegel: Logisch 1 Pegel, abhangig von der verwendeten Technologic. 

Handshake: Signalprotokoll, bei dem ein Signal A einen Zustand anzeigt und ein anderes Signal B bestatigt, dafi es Si- 
gnal A akzeptiert und darauf, reagiert (hat). 10 

Konfigurieten: Bestimmen der Funktion und Vemetzung einer logischen Einheit, einer (FPGA)-Zelle oder einer PAE 
(vgl. umkonfigurieren). 

Latch: Speicherelement, das ein Signal fUr gewdhnlich w^rend des H-Pegels transparent weiterleitet und wahrend 
des L-Pegels speichert. In PAEs werden teilweise Latches gebraucht, bei denen die Funktion der Pegel genau umgekehrt 
ist. Hierbei wird vor den Takt eines iiblichen Latch ein Inverter geschaltet. 15 

L-Pegel: Logisch 0 Pegel, abhangig von der verwendeten Technologic. 

M-PLUREG: Register in dem die Vernetzung der PAE gesetzt wird. Das Register wird von der PLU beschrieben. 
Next-Neighbour Vemetzung: Vemetzung der Bussysteme mit den an den Kanten anstoBenden Nachbam. 
OMUX: Multiplexer innerhalb der BM-UNIT, der das Bussystem der Operanden auswahlt. 

OneShot: Modus in dem eine PAE mit einem geringeren als dem Prozessortakt arbeitet. Der Tkkt ist synchron zum 20 
Prozessortakt und entspricht einer Periode. Eine Phasenverschiebung existiert nicht Der Tkkt v^drd uber eines der Signale 
oRDY(l/2) oder rRDY freigegeben. Dieser Modus dient der Stromeinsparung, wenn die Datensender oder -empfanger 
langsamer als der Prozessortakt Daten sehden oder empfangen. 

Open-Kollekton Schaltungstechnik, bei der der Kollektor eines IVansistors an einem, tiber einen PuUup auf den H-Pe- 
gel gezogenen, Bussigoal liegt. Der Emitter der IVansistors Uegt auf Masse. Schaltet der IVansistor, so wird das Bussi- 25 
gnal auf den L-Pegcl gezogen. Vorteil des Verfahrens ist, daB eine Mehrzahl solcher TVansistoren den Bus ohne elektri- 
sche Kollision steuem konnen. Dabei sind die Signale ODER-verkiipft, es entsteht das sog. wired-OR. 

O-REG: Operandenregister zur Speicherung der Operanden der EALU. Ermoglicht die zeitliche und funktionelle Un- 
abhangigkeit der PAE von den Datensendem. Dadurch wird der Transfer der Daten ,vereinfacht, da er asynchron oder pa- 
ketoriendert stattfinden kann. Gleichzeitig wird die Moglichkeit geschaffen die Datensend^ unabhangig von der PAE 30- 
oder die PAE unabhangig von den Datensendem umzukonfigurieren. 

O-REGsft: O-REG mit durch SM-UNTT gesteuertem Schieberegister. 

PA: Processing Array: Array aus PAEs. 

PAE: Processing Array Element: EALU mit O-REG, R-REG, R20-MUX, F-PLUREG, M-PLUREG, BM-, SM-, 
Sync-, StateBack- und Power-UNIX 35 

PLU: Einheit zum Konfigurieren und Umkonfigurieren der B\E. Ausgestaltet durch einen speziell an seine Aufgabe 
angepaBten MikrokontroUer. 

PowerSave-MOD£: Stromsparmodus Modus innerhalb des OneShot-MODE. Wahrend keine Operadon ausgefuhrt 
wird werden alle Teile der PAE mit Ausnahme des F-, M-PLUREG und Sync-UNIT nicht mit Spannung versoigt. 
Power-UNTT: Einheit die die Stromsparfunktionen regelt. 40 
PuUDown: Wderstand, der eine Busleitung auf einen L-Pegel zieht 
PullUp: Widerstand, der eine Busleitung auf einen H-Pegel zieht. 

R-GATE: Schalter innerhalb der BM-UNIT, der das Ergebnis auf das entsprechende Bussystem aufschaltet. Dabei 
sind einige Signal iiber als Open-Kollektor-Treiber aufgeschaltet. Das R-GATE arbeitet als Bustreiber und kann in einen 
busneutralen Modus gehen. 45 

R20-MUX: Multiplexer zum Einschleifen des Ergebnisses in einem R-REG-sft in den Datenpfad zwischen O-REG 
und EALU. 

R-REGsft: Ergebnisregister zur Speicherung des Eigebnis der EALU. Ermoglicht die zeitliche und funktionelle Un- 
abhangigkeit der PAE von den Datenempfangem. Dadurch wird der lYansfer der Daten vereinfacht, da er asynchron oder 
paketoriendert stattfinden kann. Gleichzeitig wird die Moglichkeit geschaffen die Datenempfanger unabh^gig von der so 
PAE oder die PAE unabhangig von den Datenempfangem umzukonfigurieren. Das Register ist mit einer Schiebfunktion 

versehen, die von der SM-UNTT gesteuert wird. 

serielle Operadonen: Operationen, die durch serielles Abarbeiten eines Datenwortes oder eines Algorithmus durchge- 
fiihrt werden. Serielle Multiplikation, serielle Division, Reihenentwicklung 

Sleep-MODE: Stromsparmodus in dem die PAE mit Ausnahme von F-PLUREG ohne Spannung ist. 55 
SM-UNTT: StateMachine-UNTT. Zustandsmaschine, die die EALU steuert. 

StateBack-UNTT: Einheit, die die Ruckmeldung der Statussignale an die PLU steuert. Bestehend aus einem Multiple- 
xer und einer Open-KoUektor-Bustreiberstufe 

Sync-UNTT: Einheit, die die Synchronisation der PAE mit den Datensendem und -empfangera ubemimmt, sowie das 
Umkonfigurieren von PAEs uberwacht. Gleichzeitig werden die OneShot-Funktionen ubemommen. 60 

Tor: Schalter, der ein Signal weiterleitet oder sperrt Einfacher Vergleich: Relais 
Umkonfigurieren: Neues Konfigurieren von einer beliebigen Menge von PAEs w^end eine beliebige Restmenge von 
PAEs ihreeigenen Funktionen fortsetzen (vgl. konfigurieren). 

Zustandsmaschine: Logik, die diversen Zustanden annehmen kann. Die 'Obeigange zwischen den Zustanden sind von 
verschiedenen Eingangsparametern abhangig. Diese Maschinen w^den zur Steuerung komplexer Funktionen eingesetzt 65 
und entsprechen dem Stand der Technik. 
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6. Konventionen 
6.1 Nainenskonvention 

5 Baugruppe: -UNIT 
Betriebsart: -MODE 
Multiplexer: -MUX 
Negiertes Signal: not- 
Register fur PLU sichtbar: -PLUREG 
10 Register intern: -REG 
Schieberegisters: -sft 

6.2 Funktionskonvention 

15 Schieberegisten sft 
UND-Funktion: & 
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Patentanspriiche 

1. Konfigurierbare und zurLaufzeit umkonfigurierbare Einheit zur >ferarbeitung von numerischen und logischen 
Operationen (PAE), zum Einsatz in Prozessoren (CPUs), Mehrrechnersystemen, DatenfluBprozessoren (DFPs), Di- 
55 gitalen Signal Prozessoren (DSPs), systolischen Prozessoren und programmierbaren Logikbausteinen (FPGAs), ge- 

steuert von einer Ladelogik (PLU), dadurch gekennzeichnet, daB 

1. eine programmierbare Recheneinheit (EALU) zur Durchftihrung der mathematischen und logischen 
Grundfunktionen besteht, 

2. die Funktion und Vemetzung der Recheneinheit in Register programmiert wird und eine \^elzahl von Da- 
60 ten, ohne Umprogrammierung der PAE, verarbeitet werden kann, 

3. zur Steuerung der Recheneinheit (EALU) eine Zustandsmaschine (SM-UNIT) existiert, 

4. Register fUr jcden Operanden (0-REG) und das Ergebnis (R-REG) bestehcn, wobei die Register teilweise 
ahs Scheiberegister ausgefiihrt werden konnen, 

5. eine Ruckkopplung der Daten des Ergebnisregisters auf einen Eingang der EALU uber einen Multiplexer 
65 (R20-MUX) besteht, 

6. eine Buseinheit (BM-UNIT) den Abgriff der Daten von einem Bussystem ermoglicht bzw. das Einspeisen 
des Ergebnisses auf ein Bussystem, wobei die Buseinheit Daten an mehrere Empfanger versenden kann und 
die Synchronisierung auch mehrerer Empfanger automatisch erfolgt. 
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7. der Buszugriff von der Datenverarbeitung in der EALU iiber die Register entkoppelt ist und somit jede PAE 
als unabhangige Einheit betrachtet warden kann, ins besondere die Konfiguradon und Umkonfiguradon eine 
PAE keinen storenden Einflufl auf die Datensender und -empfanger, sowie die unabhangigen PAEs hat, 

8. der Ablauf der Bustransfers uber eine Zustandsmaschine (SYNC-UNIT) automatisch gesteuert wird und 
dafiir die Handshake-Leitungen oRDY, oACK, rRDY und rACK zur Verfugung stehen, 5 

9. Ruckmeldungen an die PLU zur Erkennung des Zustandes der \ferarbeitung und der Umkonfigurierbarkeit 
der PAE erfolgen (StateBack-UNIT). 

2. Einheit nach Anspruch 1, dadurch gekennzeichnet, dafi die Datenverarbeitung einer PAE angehalten werden 
kann (Eintrag STOP in F-PLUREG) und die PAE daraufhin nach Voilendung der gerade laufenden Datenverarbei- 
tung ihre Bereitschaft zur Uinkonfiguration anzeigt (ReConfig). 10 

3. Einheit nach Anspruch 1, dadurch gekennzeichnet, daB Stromsparmodi existieren, 

- in welchen die PAE immer nur dann arijeitet, wenn Operanden vom Datensender am Eingang bereitstehen 
und das Eigebnis bereits vom Empfanger angenommen wurde, und die PAE ansonsten ohne Ikkt statisch 
bleibt, 

- in welchen Teilbereiche der PAE, die zur Ausfuhrung der momentanen Datenverarbeitung irrelevant sind, 15 
von der Takt- und/oder Stromversoigung getrennt sind, 

- in welchen die PAE von der Spannungsversorgung getrennt ist. 
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i302 



3' 'xp. 13 
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Nummer: 
Int. CI 6: 
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DE19651 075 A1 
G06F 1980 
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R-GATE 



ModeO -^-Q- 
Mode1 - ^£1]- 
ModeZ 



mi 



00-BUSO . 

00-6US1 . 

00- 8US2 , 
D0-BUS3 . 

01- BUSO . 
01-BUS1 . 
Cn-BUS2 . 
D1-61JS3 . 



::3I}- 



-ST 



1«lo 



-OREGM-DO 



•0REGtx»-Q1 



(Kn)-BUSO- 



0(n)-8US1- 
0(n>-BUS2-. 



D0D-Bt)S3_ 



-CliEC(x)-CKn> 



1U 
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